ЗА 


УДК 004.272.2 


Н.Г. Аксак, А.Ю. Лебёдкина 
Харьковский национальный университет радиоэлектроники, г. Харьков, Украина 
ахак(@Кге.КВагкоу.ча 


Методы и модели производительности 
обучения многослойных нейронных сетей 
в распределенных компьютерных средах 


В работе предложены методы и модели производительности параллельных процедур, которые позволяют 
эффективно применять многослойную нейронную сеть в распределенных компьютерных средах 
с различными топологиями («решетка», «полносвязный граф», «звезда»). Достоверность использования 
предложенных методов и моделей подтверждается экспериментальными исследованиями. 


Введение 


Стремительное развитие высокопроизводительных вычислительных систем повлек- 
ло за собой множество следствий. Появилась возможность параллельно решать сложные 
прикладные задачи с большим объемом вычислений. Для этого необходимы специаль- 
ные технологии и методы, допускающие возможность разделения задач на фрагменты, 
которые можно выполнять независимо друг от друга. Примерами решения больших 
задач в распределенных вычислительных средах являются [1]: 

—в Центре «Биоинженерия» РАН определена скрытая периодичность в генети- 
ческих последовательностях. Задача решена за 63 часа (на 1 СРИ требуется 2 года), 
участвовало 8 городов,10 организаций, 14 кластеров, 407 СРО; 

—в ПензГУ решена задача дифракции электромагнитного поля на диэлектри- 
ческом анизотропном теле произвольной формы. Потребовалось 26 дней на фоне 
работы СКЦ, в то время как на 1 СРИ - 4 года. Использовалось 4 кластера СКЦ 
НИВЦ МГУ; 

—в ИБМХ РАМН, Гематологический центр РАМН осуществлен поиск молекул- 
ингибиторов для заданных белков-мишеней (тромбин). Задействовано было 270 СРИз, 
решена за 11 дней (на 1 СРИ требуется 4,5 года), участвовало 2 города, 3 кластера 
в учебном классе. 

В то же время для решения неформализованных задач широкое распростра- 
нение получили искусственные нейронные сети, при этом их естественная внутренняя 
структура позволяет реализовывать параллельное обучение и функционирование ней- 
росетевых процедур. Однако на сегодняшний день основные нейросетевые парадигмы 
предназначены для моделирования на традиционных однопроцессорных компьютерах. 
Кроме того, время обучения нейронных сетей при больших объемах исходных данных, 
обрабатываемых последовательно, может быть очень велико. 

Таким образом, актуальными являются синтез и адаптация нейронных сетей на вы- 
сокопроизводительные вычислительные архитектуры с наименьшим временем обучения. 

Целью данной статьи является разработка методов и моделей оценивания про- 
изводительности распределенных нейропроцедур со сверхбольшим объемом данных 
с учетом адаптации на высокопроизводительные архитектуры. 
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Методы оценивания эффективности работы 
параллельной процедуры 


Под распределенными вычислениями понимается способ решения трудоёмких 
вычислительных задач с использованием нескольких компьютеров, объединённых 
в параллельную вычислительную систему. 

Оценивание эффективности распределенной процедуры осуществляется в зави- 
симости от количества доступных вычислителей, соответствующих значению Р, которые 
идентифицируются номерами г=0,Р-1, где г=0 — управляющий вычислитель, г=ЪР-1 — 
рабочие вычислители. 

Сетевой закон Амдала [2], [3] является традиционным методом определения тео- 
ретического ускорения распределенной процедуры 


п а 
Га бе о 5’ 
| пос пар С с 
И Р ее Опос О Ос Опос + +Ое — Ор+Ос + 
+ + { 
о Р ел 
где р - количество вычислителей, 
[© = общее количество тактов выполнения последовательной процедуры, 


Опос — Количество скалярных непараллельных операций в параллельной процедуре, 


а_ пос — удельный вес последовательных операций в параллельной процедуре, 


О 
Опар _ Количество скалярных параллельных операций в параллельной процедуре, 
Опар > 
Ор =Опос + а общее количество тактов выполнения параллельной процедуры, 


_ Ос — коэффициент сетевой деградации вычислений, 
|6 
о. - общее количество передач данных, 
(‹ - пропускная способность сети, 


{ — пиковая производительность вычислителя. 
Однако закон Амдала при определении общего количества тактов выполнения 


> Опа 
параллельной процедуры Ор = Опос + р предполагает в качестве обязательного усло- 
вия равномерное распределение объемов данных каждому вычислителю. Таким образом, 
графическая интерпретация закона Амдала представляет собой непрерывный прирост 
производительности до некоторой точки максимума, что расходится с реальной произ- 
водительностью процедуры с учетом синхронизации параллельных процессов. 
Тогда метод оценивания эффективности распределенной процедуры по под- 
чиненному принципу «таз{ег/1ауе» при параллелизме на уровне задач будет иметь вид 
0 
ХЕ 
г о (2) 


шах Отаре + О пос жЕ0 +У-+ОсхОх* 
г=0,Р-1 


где # =Е хМх М , г=0,Р-1 — пиковая производительность г-о вычислителя, 


т 


Е', г=0,Р-1 — тактовая частота 1-го вычислителя, 
№, г=0,Р-1 — количество вычислительных ядер г-го вычислителя, 
№, г=0,Р-1 — количество операций с плавающей запятой на такт 1-го вычислителя, 


482 «Искусственный интеллект» 42011 


Методы и модели производительности обучения многослойных нейронных сетей... ЗА 


Опар ‚ г=0,Р-1 — количество скалярных параллельных операций, выполняющихся 
на г-ом вычислителе, 

Опос — количество скалярных последовательных операций, выполняющихся на 
управляющем вычислителе, 

р - диаметр, определяющий максимальное расстояние между двумя вычисли- 
телями сети, 

У - латентность сети. 

При параллелизме на уровне данных метод оценивания эффективности распре- 


деленной процедуры принимает вид 
0 
Ох 
5 | 6) 
тах ОПГ +ОпосхЕ +У+ОсхОхЕ 
г=0,Р-1 


где О, - количество скалярных последовательных операций на один параллельный такт, 
К‚, г=0,Р-1 — критерий равномерного распределения параллельных операций 
в зависимости от номера вычислителя г, определяемый в соответствии с (4), (5), 


ОГ =К,Оц, г=0,Р-1 — количество тактов выполнения параллельных операций, 


выполняющихся на г-ом вычислителе. 
Максимально возможные значения критерия равномерного распределения парал- 
лельных операций Ки.х определяются как 


- (4) 


Текущие значения критерия К, определяются в зависимости от номера вычислителя 


(г—1) о | +ФЬ ФЕБ ету |1 а 
гб я (5) 


(Р-Ь) о | , (* Р-+Ь изу +6} о 91а | Г. 1 


где 14а =Р-Ь — номер вычислителя, начиная с которого уменьшается на еди- 


ницу значение критерия равномерного распределения параллельных операций К., 
Ь = Опар х шоа(Р —1) — количество вычислителей с большей нагрузкой. 
В выражениях (2), (3) значение О’ определяется с учетом барьерной синхрони- 


зации параллельных процессов как при гетерогенной, так и при гомогенной распре- 
деленной среде, что увеличивает точность оценивания эффективности работы парал- 
лельной процедуры. 


Модели производительности процедуры 
распределенного обучения многослойной нейронной сети 
Одним из преимуществ нейронных сетей является возможность обучения, которое 


заключается в нахождении коэффициентов связей между нейронами [4]. 
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Обозначим через (и, т.т, Г.Р, п1,п2,...,В1,) ускорение задачи распределенного 
обучения Г-слойной нейронной сети (п -по-...-пт), где 9- количество эпох 


обучения, Г и Т- соответственно количество примеров в обучающей и тестовой 
выборках, Р — число доступных вычислителей, которые идентифицируются 
номерами г=0,Р-1. На основании выражения (3) построим параметрическую модель 
производительности распределенного обучения многослойной нейронной сети 


(О.Т, 1. п1,п2,.-. пт, }х 


о а, 6 
ьп2».1т.) Ор (ОРТ, Тит, п2,.. пт г)+У +0 (ОТ,Р)х хх (6) 
где алгоритмические составляющие О’, О. для модели производительности распре- 
деленного обучения многослойной нейронной сети с топологией передачи данных «пол- 
носвязный граф» соответственно определены как 


Ъ ра 
9р=0х(1х( У, тах (Кг Е 1+3) + уз шах (Ки 2 (3+2 +1 аи-1)+ 
мог=О,Р-1 мог=О,Р-1 
т-1 
+5 шах (Ку. ит _1))+Тх( У’ шах _(К ие (ии +3)) + 

г=0,Р-1 м_2г=0,Р-1 (7) 

Вы 
+( 8+2 + ат-та +511 +21, +3)х10), 
ЙЙ 
г 7. 2 2 2 
Ос =Чх(х (22 хР” —2.хР-ЗР^ +4Р)+Тх(1+ЁГхР” -ГхР-2Р” +2Р)), 


с топологией передачи данных «звезда» как 


Г-1 
Ор ока» тах (Кшле (2ии_1+3)+ У мах (Кис +2041) и-1)+ 
т= 2т=0, Р-1 т= Е 0,Р-1 
+5 шах (Ку п 1))+Тх(Ко ге (21 +3)+ 


г=0,Р-1 
Г, ТЕР (8) 


+( 7 21и_1+3)хпт+ У'@+21 +1) аш +5011 +281 +3)х10)), 
ш= т=2 


О9с = х(1х (2. хР-1.-Р)+Тх(ЕхР-2Р-1.+3)), 
и с топологией передачи Данных «решетка» как 


(9) 
О, =Их(Н, х(тах(Н, „” (2п, +3)) +тах(Н, „г (3+2п,)п,)+ 


+ тах(тах(Н, „2 (2, + 3)), тах(Н) „1” (2п, + 3) + 


1—1 
+» тах(тах(Н „Г (2п 


т=3 


+ тах(тах( НЫ, „#” (2и,_, + 3)), тах(Н/, „2 (2п 1+ 3)) +5 тах(Н, „п, ,))+ 


+3)),тах(Н „.„@ (2и„+3)))+ 


т-1 т-г 


+ тах(тах(Н, „г (2п + 3)) +5 тах(Н, „и, |), тах(Н, „Г (3 +2п, )п „2))+ 
3 
+ У` шах(тах(Н,_, „Г (3+2и, ‚)п,_;),тах(Н,‚„ (3+2и, )п,_,))+ 
т=Е-1 


+ тах(тах(Н, „#” (3 +2", ) п,), тах(Н. „г (3 +2и, ) т. ))) + 


тОшажн., г (2"„,+3) +5 (( (3+2 „.)и„ам,)+5и,т,)), 


т=2 т=2 


ИА т 5-0), 


484 «Искусственный интеллект» 42011 


Методы и модели производительности обучения многослойных нейронных сетей... ЗА 


где 7 — количество ребер в топологии «решетка», которые идентифицируются номе- 
рами 1=Ъ2, 
К! г — критерий равномерного распределения по вычислителям нейронов каждого 


слоя определяется как 


|е- ри н®} эн ее 
ен Р+Ь ня о 1 >. 


где г =Р-Ь — номер вычислителя, начиная с которого уменьшается на единиц 
а У 


[= 


(10) 


значение критерия равномерного распределения параллельных операций К,, 
Ь = п| х то4(Р —1) — количество вычислителей с большей нагрузкой, 
Н\ г — критерий равномерного распределения по вычислителям нейронов каждого 


слоя в топологии «решетка» определяется как 


Де 


Ни = к. (11) 
А 


где а = РИ-Ь — номер вычислителя, начиная с которого уменьшается на еди- 


ницу значение критерия равномерного распределения параллельных операций К,, 


2 Р > е ; 
Б =п| х о4 7 - количество вычислителей с большей нагрузкой, 
Н; — текущие значения критерия в зависимости от номера ребра определяются как 


т м (12) 


е-ь [у 1+0 ре ЧУ, +® 5, 12, 


где 4 =7-Ъ - номер ребра, начиная с которого уменьшается на единицу зна- 


чение критерия равномерного распределения обучающей выборки 1, 

Ъ = [х од 2 — количество ребер с большей нагрузкой. 

На основе моделей производительности получены наиболее эффективные про- 
цедуры распределенного обучения многослойной нейронной сети методом обратного 
распространения ошибки с топологиями передачи данных «звезда», «полносвязный граф» 
и «решетка» [5]. На рис. 1 представлены результаты полученных на основании моде- 
лей (7), (8), (9) теоретических ускорений по сравнению с экспериментальными. 

Для проведения экспериментальных исследований была решена задача класси- 
фикации изображений размерностью 500х500 пикселей. В соответствии с выкладками в 
[6] были выбраны следующие исходные данные: Г. = 3 — количество слоев в мно- 
гослойной нейронной сети (включая первый и выходной); п! = 250000, п› = 120, пз=5- 
количество нейронов в первом, втором и третьем слое соответственно; обучающая и 
тестовые выборки величиной [ =30х10* и Т = 3000 примеров; количество эпох Ч 


=90х10“; количество вычислителей р =1,28. 
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ыы ы Теоретическое 

В. д‘ ускорение 

в, 5. 3 Экспериментальное 
Е Е ускорение 

> 2 


15 20 25 
Количество вычислителей 


5 10 15 20 25 5 10 
Количество вычислителей 


а) Топология сети передачи 6) Топология сети передачи данных 
данных «звезда» «полносвязный граф» 


Ускорение, раз 


5 10 15 20 25 
Количество вычислителей 


в) Топология сети передачи данных «решетка» 


Рисунок 1 — Зависимость времени обучения нейронной сети 
от количества вычислителей 


На рис. 2 показана графическая интерпретация методов определения ускорения 
с помощью полученного метода оценивания эффективности (3) и традиционного закона 


Амдала (1). 


З 3. 
5. 5 Метод оценивания 
ы З: эффективности (4) 
| | 
а ь., 7 
я я Закон Амдала (1) 
> > 1 
5 10 15 20 25 баг 10 тис" ист 
Количество вычислителей Количество вычислителей 
а) Топология сети передачи данных «звезда» 6) Топология сети передачи данных 


«полносвязный граф» 
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Ускорение, раз 


5 10 15 20 25 
Количество вычислителей 


в) Топология сети передачи данных «решетка» 
Рисунок 2 — Графическая интерпретация методов определения ускорения 


Как видно из рис. 1, интерпретация теоретического ускорения, полученного на 
основании параметрических моделей (7), (8), (9), соответствует экспериментальным 
результатам, что говорит о достоверности использования предложенной модели для 
описания производительности распределенной процедуры обучения Г.-слойной нейрон- 
ной сети. На рис. 2 отражено различие между графическими интерпретациями методов 
оценивания ускорения обучения Г.-слойной нейронной сети. На основании чего можно 
сделать вывод о том, что предложенный метод описывает ускорение распределенной 
процедуры в зависимости от значений задержки при барьерной синхронизации. 


Выводы 


Научная новизна работы заключается в том, что предложенные методы оцени- 
вания эффективности работы распределенных процедур при параллелизме на уровне 
задач и на уровне данных с помощью разработанных критериев равномерного распре- 
деления параллельных операций позволяют получить максимальное ускорение при 
наиболее эффективном использовании доступного количества вычислителей. 

Разработанные параметрические модели производительности процедуры рас- 
пределенного обучения многослойной нейронной сети в виде алгоритмических состав- 
ляющих позволяют значительно сократить время ее обучения в распределенных 
компьютерных сетях с различными топологиями («решетка», «полносвязный граф», 
«звезда»). 
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Н.Г. Аксак, А.Ю. Лебъодюна 

Методи 1 модел! продуктивност! навчання багатошарових нейронних мереж 

в розподлених комп’ютерних середовищах 

У статт!г запропоновано методи та модел! продуктивност! паралельних процедур, як! дозволяють 
ефективно застосовувати багатошарову нейронну мережу в розподллених комп’ютерних середовищах 
з рзними тополопями («репитка», «повнозв?язний граф», «зрка»). Достоварысть використання запро- 
понованих метод\в 1 моделей шдтверджуеться експериментальними досл1дженнями. 


М№.(. АхаЕ, А.О. Геро4 Мпа 

Ме®о65 апа Реогтапсе Моде! оЁ Тгашто Ми ауег Меига! Мебуогк$ ш ОбаЮщед 

Сотрийпо Епугоптет 

Те тефо4$ ап реогтапсе то4е[зоЁ рагаПе| ргосеззез а{ епа Ме еНеснуепиШеуе| пейга! пебмогк$ 
и5е ш 41 ще4 сотрийп$ епупоптет5 узи @1егеп юро]о21е$ (“ота”, “ЕаПу соппеце4 этарВ”, “заг”) 
аге ргорозе4 ше рарег. Те тепаБИиИу оЁ Фе ргорозе4 тео4$ ап то4е|5 15 сопйгтеа Бу ехрегитета1 
тезеагсВез. 


Статья поступила в редакцию 08.07.2011. 
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